查看原文
其他

未来已来:合成化学迈进智能化时代

智药邦 2022-12-15

The following article is from 中国科学杂志社 Author 中国科学:化学

近年来, 欧美发达国家将人工智能应用于合成化学并取得了一系列重要成果. 就我国而言, 结合大数据分析、机器学习以及相关智能硬件的集成, 开发中国品牌的“AI Chemists”迫在眉睫. 本文结合人工智能在合成化学中的不同应用场景, 从4个方面介绍现阶段人工智能在合成化学领域面临的挑战, 并提出了应对思路.

引言

人类每一次应用新兴技术, 都会推动文明向前迈进. 自20世纪40年代, 得益于包括Woodward在内的一代大师积极接纳与使用紫外可见吸收光谱、红外吸收光谱以及核磁共振波谱等分析方法, 有机合成的发展突飞猛进. 当前, 人工智能(artificial intelligence, AI)的梦想已经照进现实, 正以不可逆转的方式改变着人类科技、经济以及社会的方方面面. 化学家若能进一步将这项新技术深度融入合成化学, 便有望从繁琐的体力劳动中解放出来, 从而充分发挥智力劳动的创造性优势. 在相当长的时间内, 人依然是科学研究的主体, 人工智能是工具. 不过一旦产生海量数据, 后续研究很可能进入数据驱动的科学发现新时期. 人工智能技术的飞速发展为化学研究带来了前所未有的机遇和挑战, 国家自然科学基金委员会化学科学部先后组织了第237期双清论坛“AI时代的中国化学研究”、“人工智能助力合成化学”圆桌会议及“人工智能与人类健康”战略研讨会, 积极推动人工智能技术与化学研究的深度融合, 促进颠覆性技术创新和发展, 更好地服务于国家重大战略需求.
目前, 人工智能在推动合成化学的自动化与智能化等方面开始发挥重要作用. 人工智能现有的相关应用场景主要包括: (1) 建立化学反应基础数据库, 为逆合成路线设计和新材料预测打下基础; (2) 进行有机反应预测、逆合成分析和材料的逆向设计; (3) 通过知识图谱等方式挖掘数据库中蕴含的物理化学性质和结构信息, 建立相应的构效关系; (4) 适配与集成机器人和流动化学系统等硬件设备, 实现高可靠性、高通量及自动化合成(图1).

图1 人工智能在合成化学中的应用场景

人工智能与合成化学的结合方兴未艾. 经过20多年的积累, 欧美发达国家将人工智能应用于合成化学, 取得了一系列重要成果. 从我国实际出发, 结合大数据分析、机器学习以及相关智能硬件的适配与集成, 开发中国品牌的“AI Chemists”迫在眉睫. 本文结合人工智能在合成化学中的不同应用场景, 从以下4个方面介绍现阶段人工智能在合成化学领域面临的挑战和可能的解决方案, 以期为人工智能促进合成化学的发展提供一些思路.

2 数据库的建立与融合

数据库的建立是实现人工智能的基础. 数据的数量与质量是衡量数据可用性的重要指标. 这两项指标的提升可促进相关领域关键技术从量变到质变的发展. 目前国际上已经存在一些有机合成和无机晶体数据库, 如Reaxys、CAS、USPTO、CCDC、ICSD. 虽然目前国外的此类数据库占主导, 但科技的进步和计算机技术的发展给数据库的快速更新提供了可能性, 也给我国在此类数据库方面赶超欧美国家带来了前所未有的机遇.
数据库的建立离不开数据的提取和收集, 数据提取的效率和可靠性决定了数据的数量和质量. 收集数据的途径主要包括从文献和专利中提取数据、从高通量实验和高并行计算中获取数据、通过电子实验记录本收集数据等. 目前, 国际上主流数据库大都基于文献和专利积累的数据. 这些数据库具有数据量大的优势, 但是其准确性和标准化程度较低, 数据之间缺乏一致性和可比较性. 通过不断收录海量数据和记录数据出现的频率可以验证和提高数据库的可靠性. 目前文献或数据库中仍然缺乏低效、失败与非典型合成的相关数据. 如果科研人员或机器学习模型只能看到经过筛选后产生的成功结果, 并没有考虑筛选的过程, 就会忽略不少被筛掉的关键信息和数据; 而这些数据对于正确规划合成路线同样至关重要.
电子实验记录本是实现数据快速积累和共享的一种方式. 随着电子化数据的增加, 特别是搜索、共享和协作需求的不断增长, 电子实验记录本在这些方面具有天然的优势. 电子实验记录本可以实现数据的追溯和快速查找, 并使数据记录更为规范和标准. 因此, 电子记录本的使用有利于建立系统化、可高效检索的数据库, 将会极大提高实验数据的质量. 但是, 电子实验记录本的推广仍然面临数据安全和价格昂贵等诸多掣肘. 这迫切需要科研人员和产业专家共同努力, 为建设和完善我国标准化国家数据库做出贡献.
建设标准化的国家级合成化学数据库势在必行. 我国数据库建设目前面临的主要挑战是如何实现数据库的本地化和数据安全. 解决这些问题需要科研院校及数据管理机构共同努力. 例如, 可以首先在不同研究领域或不同研究方向建立若干专业化的子数据库, 然后把子数据库融合成完整的合成化学数据库. 考虑到不同专业和研究方向的差异性, 可以对每个子数据库的管理和运行规则进行相应调整, 使这些数据库的管理更加细化和灵活.
数据在什么样的安全保护措施下可以流通和共享? 怎样确保在数据共享过程中不出现安全问题, 从而让数据的流通和共享更为合理和有序? 要解决这些问题, 须遵照和/或制定相应的法律法规, 并发展相应的技术. 例如, 借鉴已成熟应用于其他领域的区块链技术, 并将此类方法应用于合成化学领域, 可能突破现有的数据安全问题. 一方面要让持有海量数据的机构担负起相应的责任, 同时也要从技术层面确保数据的规范使用.

综上所述, 目前我国在合成化学数据库建立和融合方面的主要任务包括: (1) 整合国内目前已有的相关大数据库和分散存在的小型数据库, 实现数据的标准化和统一化; (2) 发展挖掘合成化学相关数据的方法, 实现数据提取的准确性和高效性; (3) 逐步解决相关数据库的本地化和数据安全问题; (4) 在此类数据库的建设中, 要注意兼顾易获取、易操作和可视化等问题.

3 算法的开发与应用

化学反应不计其数, 在不同条件下又变化无穷. 如何规划出简洁、可行的合成路线是困扰化学家的一大难题. 科研人员借助大数据与人工智能算法高效搜索与优化反应路径, 实现可靠的逆合成分析, 有望大大提升研究效率.
人工智能技术凭借自动提取能力, 无需人工干预便能学习样本数据的特征和规律, 并基于这些特征信息辅助决策. 运用机器学习算法——特别是深度学习, 可以基于目前公开获取的海量数据以及化学合成信息, 获得更加多样的描述符来对合成任务建模并训练, 通过对反应中间体、反应步骤或潜在产物的预测, 为目标产物的合成路径提供分析和指导, 从而帮助化学家快速选择最优的合成路线(图2).

图2 机器学习算法辅助化学合成

目前, 科研人员已经将蒙特卡罗树与贝叶斯优化算法等方法应用到合成化学领域, 并成功规划了新的合成路线. 基于大数据和机器学习算法, Chematica、Chemplanner和ChemAIRS等化学逆合成软件已被开发. 计算机辅助有机合成系统的进一步完善, 有望帮助合成化学家在多种合成路径中筛选简洁、高效的合成方法, 并利用精选的合成规则优化反应路线图, 从而最终完成从目标产物到可获取的起始原料间的逆合成分析. 目前, 这些系统在一定程度上已能够设计出化学家可接受的合成方案. 因此, 我们相信人工智能将成为化学家的有力工具, 更好地为合成化学服务.
然而, 目前的机器学习模型仍然缺乏可解释性, 这限制了人工智能算法的广泛应用. 我们不仅需要依靠机器来分析数据和预测结果, 更重要的是要把通过机器学习获得的规律凝练为系统化理论知识, 加深对化学反应过程的理解, 发现新的化学原理和规律. 因此, 一个可以解释的算法模型意味着运作过程的透明. 利用可以解释的算法模型有助于科研人员对人工智能的决策进行监督及接纳, 以保证算法的公平性、安全性及隐私性, 从而创造更加安全可靠的应用.

综上所述, 人工智能算法日趋成熟, 并且在合成化学领域初显身手. 然而, 其在合成化学的广泛应用, 仍面临诸多亟待解决的问题, 包括: (1) 现有算法的可应用性受限于数据量和数据的可靠性, 我们可通过高通量实验和计算, 快速获得标准化程度较高的海量数据, 从而为应用人工智能算法做好数据准备; (2) 进一步提升算法模型的可解释性, 从而开发和保障更加安全可靠的应用; (3) 目前机器学习模型的用户体验不佳, 人工智能算法软件的化学家用户数不足. 因此,我们需要可以进一步优化人工智能算法软件的用户界面, 消除/降低对用户编程能力的要求, 从而提升此类合成化学智能工具的普及率.

4 硬件的集成与自动化

有机合成是人工智能在化学领域最早的应用场景之一. 早在1967年, Corey便提出了逆合成分析原理, 论证了运用计算机技术进行有机合成设计的方法和原则, 为化学家完成复杂有机分子的合成提供了强大的思维工具. 受制于当时计算机技术和算法水平, 人工智能在合成化学领域的应用并未得到进一步发展. 随着机器学习与自动化关键技术的突破, 人工智能才有可能为合成化学的发展提供助力. 最近几年, 该领域取得了长足进步, 极大提高了建立自动化/智能合成平台的可行性, 这将大力助推合成化学从“手工”时代迈向“智能”时代.
自动化/智能化合成平台可承担大量单调冗长的重复性工作, 解放实验化学家的双手, 使其专注于更具创造性的脑力劳动; 自动化/智能化合成平台可快速积累大量标准化、可靠性高的数据, 从而降低不同场景下数据融合和管理的难度, 为建立高质量本地化数据库奠定基础. 目前可成熟商用的自动化/智能化设备和硬件包括高通量反应器、固相合成仪、微流控、机器人等. 自动化/智能化合成实验室的搭建, 便是基于大样本数据库的人工智能算法, 将上述硬件适配与集成, 从而建立用户友好、灵活的全自动化合成平台.
为实现硬件平台的全自动化与通用化, 可对合成工艺中的硬件设备进行区域化和模块化处理, 再根据具有相似属性(如具有相同反应机理、类似加料与纯化步骤等)的合成目标, 通过软件开发将上述硬件进一步集成. 这样的硬件平台便可满足不同化合物的自动合成需求(图3). 由于目前合成自动化和智能化的理念还未引起科研人员的广泛关注, 此类自动化/智能化合成平台的实际用户稀缺, 国内外相关的研发机构相对较少. 这一现状恰好为我国在该领域的发展提供了宝贵契机. 但此类实验平台的技术开发门槛相对较高、研发周期长、成本高, 因此需要多学科研发人员通力合作.

图3 合成化学自动化实验室的建立

综上所述, 虽然人工智能技术在硬件的集成方面已经取得了可喜进展, 但仍面临如下挑战: (1) 发展适用于高通量筛选的化学和工程技术手段, 建立全流程自动化合成实验平台; (2) 为配合数据的标准化, 降低零部件使用成本, 并推广平台的使用, 为相关硬件制定某些统一化标准也十分重要; (3) 鼓励作为终端用户的实验化学家以研究需求为导向, 积极参与到硬件的集成工作中, 与相关学科的研究人员协同合作, 从而加速自动化/智能合成平台的开发与应用.

5 人才的需求与培养

“AI Chemists”在合成化学的迅速落地与深入发展离不开化学、计算机、自动化、人工智能等不同背景专业人才的精诚合作. 然而, 目前该领域的从业者大多来自化学专业, 其他专业的科研人员参与较少. 同时, 合成化学家尚未体会到人工智能带来的便利, 因而缺乏主动寻求与人工智能、自动化等领域专家交流的内在动力. 这就使得上述相关自动化平台的开发进展比较缓慢.
由此可见, 要将人工智能融入合成化学, 需要合成化学家主动出击, 通过多学科交叉研讨调整思路、转变研究范式, 更需要培养具有新思维模式的年轻科研人员(如研究生甚至本科生).
年轻研究人员, 特别是在校学生, 是更易接受新事物的群体. 因此, 在化学专业的培养计划中引入人工智能将大有裨益. 建议在合成化学相关专业开设人工智能基础课程, 让年轻科研人员及时掌握与人工智能相关的基础知识, 并鼓励年轻科研人员积极学习和分享人工智能与合成化学的世界领先成果, 尝试使用所学技术解决合成化学领域遇到的问题, 促进合成化学领域的进一步发展.
同时, 我们邀请对人工智能和合成化学有浓厚兴趣的研究人员以人工智能的语言介绍拟解决的问题, 研讨此方面需要解决及可能解决的短期、中期和长期问题, 从而提升“AI Chemists”在更大范围内的受重视程度.
综上所述, “AI Chemists”在合成化学的发展需要不同专业背景人才的通力协作. 我们需要以合成化学的实际需求为导向, 组织不同层次的研讨会, 激发合成化学家转变研究范式的内在动力; 在合成化学相关专业开设人工智能基础课程, 帮助年轻科研人员掌握人工智能基础知识.
人工智能的时代已经到来, 它正在促进合成化学研究范式的变革. 人工智能将极大地解放化学家的双手, 使其更专注于更具创造性的脑力劳动. 合成化学家与人工智能将各司其职、优势互补. 人工智能助力合成化学任重道远, 未来可期.

【本文将收录于《中国科学:化学》“AI+合成化学专刊”▼】

张绍东, 王璐, 付雪峰. 未来已来——合成化学迈进智能化时代. 《中国科学: 化学》, 2022, 52, doi: 10.1360/SSC-2022-0036

--------- End ---------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 

姓名-学校-职务/研究方向




- 历史文章推荐 -


AI与化学

Nat Chem|让化学的集体知识公开化和机器可操作化

●AI提高从头设计的新化合物的可合成性

●人工智能改变化学领域,机器学习范式加速化学物质发现

●IBM|基于云服务与AI驱动的自动化有机合成实验室(上)

●IBM|基于云服务与AI驱动的自动化有机合成实验室(下)

●Science|类药有机分子的快速自动化组装

●CAS白皮书|人工智能在化学领域的应用全景和增长机会

●SRI与杨森制药合作,利用Al驱动的自动化学合成系统进行小分子药物发现

●JACS|一种支持机器学习的开源化学反应数据库

●Nature|DeepMind用深度学习改进化学中的密度泛函理论

●如何从文献/专利/图片等中快速提取化学结构?

●Nat Chem|化学机器学习的最佳实践:推荐的一套标准化指南

●NAT CHEM|人工智能的、增强智能的和自动化的化学



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存